端到端的学习模型表明,在执行语音隔离方面具有显着的能力。尽管它们在现实世界中广泛应用,但对他们对分组的机制并因此将单个说话者隔离开来知之甚少。在这项工作中,我们知道谐调是这些网络分组源的关键提示,我们对Convtasnet和DPT-NET进行了彻底的研究,以分析它们如何对输入混合物进行谐波分析。我们进行彻底研究,在其中应用低通,高通和带路的多个传球循环过滤器,以凭经验分析最重要的隔离谐波。我们还研究了这些网络如何通过引入合成混合物中的不连续性来决定将哪种输出通道分配给估计来源。我们发现,端到端网络非常不稳定,并且在面对人类无法察觉的变形时性能差。用频谱图替换这些网络中的编码器会导致整体性能降低,但稳定性更高。这项工作有助于我们理解这些网络依赖语音隔离的信息,并揭示了两种概括源。它还将编码器指定为负责这些错误的网络的一部分,从而可以重新设计专家知识或转移学习。
translated by 谷歌翻译